草庐IT

python Pandas : select columns with all zero entries in dataframe

全部标签

python - Spark RDD 到 DataFrame python

我正在尝试将SparkRDD转换为DataFrame。我已经看到将方案传递给的文档和示例sqlContext.CreateDataFrame(rdd,schema)函数。但我有38个列或字段,这将进一步增加。如果我手动给schema指定每个字段信息,那将是一件非常乏味的工作。有没有其他方法可以在不知道之前列信息的情况下指定架构。 最佳答案 看,在Spark中有两种方法可以将RDD转换为DF。toDF()和createDataFrame(rdd,schema)我将向您展示如何动态地做到这一点。toDF()toDF()命令提供了将RDD

python - 在几个 DataFrame 列上运行 get_dummies?

如何在多个DataFrame列上惯用地运行像get_dummies这样的函数,它需要一个列并返回多个列? 最佳答案 使用pandas0.19,您可以在一行中完成:pd.get_dummies(data=df,columns=['A','B'])Columns指定在何处进行OneHotEncoding。>>>dfABC0ac11bc22ab3>>>pd.get_dummies(data=df,columns=['A','B'])CA_aA_bB_bB_c011.00.00.01.0120.01.00.01.0231.00.01.00.

python - 在几个 DataFrame 列上运行 get_dummies?

如何在多个DataFrame列上惯用地运行像get_dummies这样的函数,它需要一个列并返回多个列? 最佳答案 使用pandas0.19,您可以在一行中完成:pd.get_dummies(data=df,columns=['A','B'])Columns指定在何处进行OneHotEncoding。>>>dfABC0ac11bc22ab3>>>pd.get_dummies(data=df,columns=['A','B'])CA_aA_bB_bB_c011.00.00.01.0120.01.00.01.0231.00.01.00.

python - 将 StringIndexer 应用于 PySpark Dataframe 中的多个列

我有一个PySpark数据框+-------+--------------+----+----+|address|date|name|food|+-------+--------------+----+----+|1111111|20151122045510|Yin|gre||1111111|20151122045501|Yin|gre||1111111|20151122045500|Yln|gra||1111112|20151122065832|Yun|ddd||1111113|20160101003221|Yan|fdf||1111111|20160703045231|Yin|gr

python - 将 StringIndexer 应用于 PySpark Dataframe 中的多个列

我有一个PySpark数据框+-------+--------------+----+----+|address|date|name|food|+-------+--------------+----+----+|1111111|20151122045510|Yin|gre||1111111|20151122045501|Yin|gre||1111111|20151122045500|Yln|gra||1111112|20151122065832|Yun|ddd||1111113|20160101003221|Yan|fdf||1111111|20160703045231|Yin|gr

python - ValueError : Length of values does not match length of index | Pandas DataFrame. 唯一()

我正在尝试获取新数据集,或将当前数据集列的值更改为其唯一值。这是我想要得到的一个例子:AB-----0|111|252|153|794|795|89WantedResultNotWantedResultABAB----------0|110|111|251|252|792|3|83|794|5|8我并不真正关心索引,但这似乎是问题所在。到目前为止,我的代码非常简单,我尝试了2种方法,一种使用新的dataFrame,一种没有。#WithNewDataFramedefUniqueResults(dataframe):df=pd.DataFrame()forcolindataframe:S=

python - ValueError : Length of values does not match length of index | Pandas DataFrame. 唯一()

我正在尝试获取新数据集,或将当前数据集列的值更改为其唯一值。这是我想要得到的一个例子:AB-----0|111|252|153|794|795|89WantedResultNotWantedResultABAB----------0|110|111|251|252|792|3|83|794|5|8我并不真正关心索引,但这似乎是问题所在。到目前为止,我的代码非常简单,我尝试了2种方法,一种使用新的dataFrame,一种没有。#WithNewDataFramedefUniqueResults(dataframe):df=pd.DataFrame()forcolindataframe:S=

python - 使用 matplotlib 中的 dataframe.plot() 函数编辑条的宽度

我正在使用以下方法制作堆积条形图:DataFrame.plot(kind='bar',stacked=True)我想控制条形的宽度,使条形像直方图一样相互连接。我查看了文档但无济于事-有什么建议吗?这样可以吗? 最佳答案 对于遇到此问题的任何人:从pandas0.14开始,用条形图绘制有一个“宽度”命令:https://github.com/pydata/pandas/pull/6644上面的例子现在可以简单地通过使用来解决df.plot(kind='bar',stacked=True,width=1)见pandas.DataFra

python - 使用 matplotlib 中的 dataframe.plot() 函数编辑条的宽度

我正在使用以下方法制作堆积条形图:DataFrame.plot(kind='bar',stacked=True)我想控制条形的宽度,使条形像直方图一样相互连接。我查看了文档但无济于事-有什么建议吗?这样可以吗? 最佳答案 对于遇到此问题的任何人:从pandas0.14开始,用条形图绘制有一个“宽度”命令:https://github.com/pydata/pandas/pull/6644上面的例子现在可以简单地通过使用来解决df.plot(kind='bar',stacked=True,width=1)见pandas.DataFra

python - 在 DataFrame 中将 Pandas 系列转换为 DateTime

我有一个如下所示的PandasDataFrameReviewIDIDTypeTimeReviewed2057603293051936827ReportID2015-01-1500:05:27.5130002327603293051936854ReportID2015-01-1500:06:46.7030002337603293051936855ReportID2015-01-1500:06:56.7070004137603293051937035ReportID2015-01-1500:14:24.9570005657603293051937188ReportID2015-01-150